GPT可以快速上手的的数据分析方法

2023-04-24 06:24| 来源: 网络整理| 查看: 265

视频链接：https://www.bilibili.com/video/BV1fL411e7S4/?vd_source=ccd0a39aa266e9fa1d50708e47c72518

以下为可以用视频里的教程测试过可用的一些分析方法，大家红色部分替换模版就行啦！这里有最容易理解的介绍和可以调整的参数，希望这个专栏可以成为大家使用的一个手册，目前这个专栏讲的都是一些比较基础的方法，如果大家希望学习比较进阶一点的内容可以私信告诉我哦。

线性回归 Linear Regression：专门用来预测一个具体的数字，比如房价

最简单的线性回归，英文名：linear regression，用一条线（根据数据有多少列递增）去找适应整个数据集，可以看下面一个图来理解一下，可以调整的参数暂无，实际可以调整的参数一般都不建议调整。

线性回归加上L1正则化，英文名：lasso regression，和最简单的线性回归很像，唯一的不同是加上了L1正则化，这个看起来很复杂，实际上就是为了简化模型，让模型能够在测试中获得更高的正确率。L1的特点是，会剔除掉不相关的变量，比如说预测房价和你的身高没啥关系，如果你在数据里有身高这一项，L1大概率会让身高对于房价的影响降为0。可以调整的参数：

alpha：L1的强度，可以设定为从0到正无穷，数字越大，正则化力度越强，越无关的变量就会越变0

线性回归加上L2正则化，岭回归，英文名：ridge regression，和L1回归很像，唯一的不同是换成了L2正则化，实际上也是为了简化模型，让模型能够在测试中获得更高的正确率。L2的特点是，会降低不相关的变量的影响，但不会成为0，比如说预测房价和你的身高没啥关系，如果你在数据里有身高这一项，L2大概率会让身高对于房价的影响接近0，但不会成为0。可以调整的参数：

alpha：L2的强度，可以设定为从0到正无穷，数字越大，正则化力度越强，越无关的变量就会越变0

不同线性回归比较，这里可以看到怎么用一条线去适应数据集

2. 逻辑回归 Logistic Regression，类似线性回归，但是这个是用来专门做分类的，比如通过各种数据判断一个交易是不是虚假的（虚假或不虚假两类）。可以调整的参数：

penalty：也就是正则化选择，可选择{'l1', 'l2', None, 'elasticnet' }。默认是l2。l1是L1正则化，l2是L2正则化（上面的线性回归部分都有详细的解释），None是没有正则化，elasticnet是L1和L2都有

C：这个是正则化的倒数，默认是1，注意这里和线性回归有区别，这个数字小，正则化越强，越大越弱

l1_ratio：这个不需要加，如果你上面的penality选择的不是elasticnet，如果你加的话，这个数字代表你l1和l2的比重

3. 支持向量机 SVM：Support Vector Machine，可以理解为一个优化的线性回归，可以看一下下面的图来理解一下。可以调整的参数：

C：这个是正则化的倒数，默认是1，注意这里和线性回归有区别，这个数字小，正则化越强，越大越弱

kernel：默认是rbf，可选择的是{‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’}。这个比较进阶，可以理解为一种让模型能够适应更复杂的数据，如果只想线性的话可以考虑选择linear

SVM对比线性回归，可以看到SVM给出了最优的线

4. 随机森林 random forest，可以把这个理解为另一种分类的办法，下图可以看一下。随机树的优点就是快而且自带正则化效果。可以调整的参数：

n_estimators：你想要多少棵树，默认100，一般而言越大越正则化

criterion：这个比较进阶，可以随便选一个，默认gini。可以选择{“gini”, “entropy”, “log_loss”}

min_samples_split: 这个比较进阶，默认2，最少有多少个数据点才能分出新的叶子，可以按照正确情况来调整

min_samples_leaf: 这个比较进阶，默认1，每一个末端叶子最少有多少个数据点，按照正确情况来调整

随机森林，可以看到随机生成多个树，然后投票

【本文地址】

公司简介

联系我们